尽管政策梯度方法的普及日益越来越大,但它们尚未广泛用于样品稀缺应用,例如机器人。通过充分利用可用信息,可以提高样本效率。作为强化学习中的关键部件,奖励功能通常仔细设计以引导代理商。因此,奖励功能通常是已知的,允许访问不仅可以访问标量奖励信号,而且允许奖励梯度。为了从奖励梯度中受益,之前的作品需要了解环境动态,这很难获得。在这项工作中,我们开发\ Textit {奖励政策梯度}估计器,这是一种新的方法,可以在不学习模型的情况下整合奖励梯度。绕过模型动态允许我们的估算器实现更好的偏差差异,这导致更高的样本效率,如经验分析所示。我们的方法还提高了在不同的Mujoco控制任务上的近端策略优化的性能。
translated by 谷歌翻译
Multilayer Perceptrons struggle to learn certain simple arithmetic tasks. Specialist neural modules for arithmetic can outperform classical architectures with gains in extrapolation, interpretability and convergence speeds, but are highly sensitive to the training range. In this paper, we show that Neural Multiplication Units (NMUs) are unable to reliably learn tasks as simple as multiplying two inputs when given different training ranges. Causes of failure are linked to inductive and input biases which encourage convergence to solutions in undesirable optima. A solution, the stochastic NMU (sNMU), is proposed to apply reversible stochasticity, encouraging avoidance of such optima whilst converging to the true solution. Empirically, we show that stochasticity provides improved robustness with the potential to improve learned representations of upstream networks for numerical and image tasks.
translated by 谷歌翻译
近年来在自动编码器(AE)框架中自动化频道编码器和解码器的设计越来越感兴趣,以便在噪声通道上可靠地传输数据。在本文中,我们为此目的展示了设计AES的新框架。特别地,我们介绍了AE框架,即Listae,其中解码器网络输出解码的消息字候选列表。假设在解码器的输出中可在解码器的输出处获得Genie,并且提出了特定损耗功能,以优化Genie-Aided(GA)-Listae的性能。 Listae是普通AE框架,可以与任何网络架构一起使用。我们提出了一种特定的端到端网络架构,其在一系列组件代码上解码接收的单词,其速率降低。基于所提出的架构的Listae称为增量冗余列表(IR-Listae),在GA解码下的低块误差速率下通过1 dB提高了最先进的AE性能。然后,我们使用循环冗余检查(CRC)代码来替换解码器的Genie,与GA-Listae相比,使CRC-Aided(CA)-Listae具有可忽略的性能损失。由于将CRC附加到消息字,CA-Listae以略微降低的价格显示有意义的编码增益。
translated by 谷歌翻译
近年来,已经进行了重要的研究活动,可以通过深度学习自动化渠道编码器和解码器的设计。由于通道编码的维度挑战,因此通过深度学习技术设计和训练相对较大的神经通道代码非常复杂。因此,文献中的大多数结果仅限于相对较短的代码,其信息位少于100个。在本文中,我们构建了Productaes,这是一个有效的深度学习驱动(编码器,解码器)对的家族,旨在以可管理的培训复杂性来培训相对较大的通道代码(编码器和解码器)。我们基于经典产品代码的想法,并建议使用较小的代码组件构建大型神经代码。更具体地说,我们没有直接培训编码器和解码器的大型神经代码$ k $ and blocklength $ n $,而是提供了一个框架,需要培训对代码参数的神经编码器和解码器$(n_1,k_1)$和$(n_2,k_2)$,这样$ n_1 n_2 = n $和$ k_1 k_2 = k $。我们的培训结果表明,对于参数守则$(225,100)$和中等长度参数码$(441,196)$,与连续的极性码相比,参数码(225,100)$(225,100)$(225,100)$(225,100)$(225,100)$(225,100)$(225,100)$(225,100)$(225,100)$,与连续的极地码相比取消(SC)解码器。此外,我们的结果表明,涡轮自动编码器(涡轮增压器)和最先进的古典代码有意义。这是设计产品自动编码器和培训大型频道代码的开创性工作的第一项工作。
translated by 谷歌翻译
神经算术逻辑模块已成为一个不断增长的领域,尽管仍然是一个利基领域。这些模块是神经网络,旨在在学习算术和/或逻辑操作中实现系统的概括,例如$ \ {+, - ,\ times,\ div,\ leq,\ leq,\ textrm {and} \} $,同时也可以解释。本文是首次讨论该领域进度的现状,从神经算术逻辑单元(NALU)开始解释关键作品。为了关注Nalu的缺点,我们提供了深入的分析,以理论有关最近模块的设计选择。在实验设置和发现上进行了模块之间的交叉比较,我们在基本实验中强调了不一致,导致无法直接比较跨论文。为了减轻现有的不一致之处,我们创建了一个基准,比较了所有现有的算术nalms。我们通过对NALU的现有应用和需要进一步探索的研究方向进行新的讨论来结束。
translated by 谷歌翻译